Temporal difference learning

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique^[1]. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal^[2]^,^[3]^,^[4]^,^[5]^,^[6].

↑ Richard Sutton et Andrew Barto, Reinforcement Learning, MIT Press, 1998 (ISBN 978-0-585-02445-5, lire en ligne [archive du 30 mars 2017])
↑ Schultz, W, Dayan, P & Montague, PR., « A neural substrate of prediction and reward », Science, vol. 275, n^o 5306,‎ 1997, p. 1593–1599 (PMID 9054347, DOI 10.1126/science.275.5306.1593, CiteSeer^x 10.1.1.133.6176)
↑ P. R. Montague, P. Dayan et T. J. Sejnowski, « A framework for mesencephalic dopamine systems based on predictive Hebbian learning », The Journal of Neuroscience, vol. 16, n^o 5,‎ 1^er mars 1996, p. 1936–1947 (ISSN 0270-6474, PMID 8774460, DOI 10.1523/JNEUROSCI.16-05-01936.1996)
↑ P.R. Montague, P. Dayan, S.J. Nowlan, A. Pouget et T.J. Sejnowski, « Using aperiodic reinforcement for directed self-organization », Advances in Neural Information Processing Systems, vol. 5,‎ 1993, p. 969–976 (lire en ligne)
↑ P. R. Montague et T. J. Sejnowski, « The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms », Learning & Memory, vol. 1, n^o 1,‎ 1994, p. 1–33 (ISSN 1072-0502, PMID 10467583)
↑ T.J. Sejnowski, P. Dayan et P.R. Montague, « Predictive hebbian learning », Proceedings of Eighth ACM Conference on Computational Learning Theory,‎ 1995, p. 15–18 (DOI 10.1145/230000/225300/p15-sejnowski, lire en ligne)

[RSutton-1998-1] Richard Sutton et Andrew Barto, Reinforcement Learning, MIT Press, 1998 (ISBN 978-0-585-02445-5, lire en ligne [archive du 30 mars 2017])

[WSchultz-1997-2] Schultz, W, Dayan, P & Montague, PR., « A neural substrate of prediction and reward », Science, vol. 275, n^o 5306,‎ 1997, p. 1593–1599 (PMID 9054347, DOI 10.1126/science.275.5306.1593, CiteSeer^x 10.1.1.133.6176)

[:0-3] P. R. Montague, P. Dayan et T. J. Sejnowski, « A framework for mesencephalic dopamine systems based on predictive Hebbian learning », The Journal of Neuroscience, vol. 16, n^o 5,‎ 1^er mars 1996, p. 1936–1947 (ISSN 0270-6474, PMID 8774460, DOI 10.1523/JNEUROSCI.16-05-01936.1996)

[:1-4] P.R. Montague, P. Dayan, S.J. Nowlan, A. Pouget et T.J. Sejnowski, « Using aperiodic reinforcement for directed self-organization », Advances in Neural Information Processing Systems, vol. 5,‎ 1993, p. 969–976 (lire en ligne)

[:2-5] P. R. Montague et T. J. Sejnowski, « The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms », Learning & Memory, vol. 1, n^o 1,‎ 1994, p. 1–33 (ISSN 1072-0502, PMID 10467583)

[:3-6] T.J. Sejnowski, P. Dayan et P.R. Montague, « Predictive hebbian learning », Proceedings of Eighth ACM Conference on Computational Learning Theory,‎ 1995, p. 15–18 (DOI 10.1145/230000/225300/p15-sejnowski, lire en ligne)

[1]

[2]

[3]

[4]

[5]

[6]